Machine Learning Gini Index এবং Information Gain এর ধারণা গাইড ও নোট

516

Gini Index এবং Information Gain হল দুটি গুরুত্বপূর্ণ পরিমাপ যা Decision Tree মডেল তৈরি করতে ব্যবহৃত হয়। এই দুটি পরিমাপ মূলত বিশ্লেষণ (splitting) বা বিভাজন (partitioning) করার সময় শ্রেণীবদ্ধকরণের জন্য শ্রেণীগুলির মধ্যে পার্থক্য বা বৈচিত্র্য মাপতে ব্যবহৃত হয়।


১. Gini Index (Gini Impurity)

Gini Index বা Gini Impurity একটি পরিমাপ যা ব্যবহৃত হয় এটি নির্ধারণ করতে যে একটি নির্দিষ্ট নোডে (node) ডেটার মধ্যে কতটা অশুদ্ধতা (impurity) বা বৈচিত্র্য (heterogeneity) রয়েছে। এটি একটি decision tree এর গাছের বিভাজন তৈরি করতে সাহায্য করে।

Gini Index এর মান 0 থেকে 1 এর মধ্যে থাকে:

  • 0 মানে হলো সেই নোডটি সম্পূর্ণরূপে পরিষ্কার, অর্থাৎ সেখানে শুধু এক ধরনের শ্রেণী আছে।
  • 1 মানে হলো সেখানে সমস্ত শ্রেণীর সমান সম্ভাবনা রয়েছে।

Gini Index গণনা করার সূত্র:

Gini(D)=1i=1kpi2Gini(D) = 1 - \sum_{i=1}^{k} p_i^2

এখানে, pip_i হলো শ্রেণী ii-এর জন্য সম্ভাবনা (probability) এবং kk হলো শ্রেণীর সংখ্যা।

Gini Index এর উদাহরণ:

ধরা যাক, একটি নোডে 100টি উদাহরণ আছে। এর মধ্যে 70টি শ্রেণী ১ এবং 30টি শ্রেণী ২। তাহলে Gini Index হবে:

Gini(D)=1((70/100)2+(30/100)2)Gini(D) = 1 - ( (70/100)^2 + (30/100)^2 ) Gini(D)=1(0.49+0.09)=10.58=0.42Gini(D) = 1 - ( 0.49 + 0.09 ) = 1 - 0.58 = 0.42

এটি নির্দেশ করে যে 42% অশুদ্ধতা রয়েছে, এবং সিদ্ধান্ত নেওয়ার জন্য এই নোডের বিভাজনটা ভালো হতে পারে।


২. Information Gain

Information Gain হল একটি পরিমাপ যা নির্ধারণ করে কোন বৈশিষ্ট্য (feature) সবচেয়ে ভালভাবে ডেটা সেটটিকে বিভাজন করতে পারে। এটি মূলত entropy এর ভিত্তিতে কাজ করে এবং একটি গাছের নোডে বিভাজন করার ফলে যে তথ্য লাভ (information gain) হবে তা মাপা হয়।

Information Gain এর মাপকাঠি হলো Entropy (তথ্যের পরিমাণ বা বিশৃঙ্খলা), এবং এটি গাছের বিভাজন করার জন্য কতটা সঠিক তথ্য পাওয়া যাচ্ছে তা পরিমাপ করে।

Information Gain এর সূত্র:

Information Gain(D,A)=Entropy(D)vValues(A)DvD×Entropy(Dv)Information\ Gain(D, A) = Entropy(D) - \sum_{v \in Values(A)} \frac{|D_v|}{|D|} \times Entropy(D_v)

এখানে:

  • DD হলো মূল ডেটাসেট।
  • AA হলো বৈশিষ্ট্য (feature) যা দ্বারা বিভাজন হচ্ছে।
  • DvD_v হলো বৈশিষ্ট্য AA এর মান vv এর জন্য সাবসেট।
  • D|D| এবং Dv|D_v| হল ডেটাসেটের আকার (number of instances)।

Information Gain এর উদাহরণ:

ধরা যাক, আমাদের কাছে একটি ডেটাসেট রয়েছে, যেখানে দুটি বৈশিষ্ট্য আছে: "Weather" এবং "Temperature"। আমরা যাচাই করতে চাই কোন বৈশিষ্ট্যটি শ্রেণীভুক্তকরণের জন্য আরও বেশি তথ্য সরবরাহ করে। আমরা প্রতিটি বৈশিষ্ট্যের জন্য entropy এবং information gain গণনা করব। যেই বৈশিষ্ট্যটির বেশি information gain থাকবে, সেটি সিদ্ধান্ত গাছের জন্য সেরা বৈশিষ্ট্য হিসেবে ব্যবহার হবে।


Gini Index এবং Information Gain এর মধ্যে পার্থক্য:

  1. বিপরীত পরিমাপ:
    • Gini Index ছোট হলে ভাল (যে নোডে অশুদ্ধতা কম, সেটি ভালো)।
    • Information Gain বড় হলে ভাল (যত বেশি তথ্য লাভ হবে, তত ভালো)।
  2. কিভাবে কাজ করে:
    • Gini Index শুধুমাত্র বৈশিষ্ট্যের মধ্যে অশুদ্ধতা মাপবে।
    • Information Gain entropy এর পরিবর্তন মাপবে, যা সিদ্ধান্ত নেয়া সম্পর্কে তথ্য প্রদান করে।
  3. ব্যবহার:
    • Gini Index সাধারণত CART (Classification and Regression Tree) মডেল তৈরি করতে ব্যবহৃত হয়।
    • Information Gain সাধারণত ID3 (Iterative Dichotomiser 3) এবং C4.5 অ্যালগরিদমে ব্যবহৃত হয়।

উপসংহার

  • Gini Index এবং Information Gain দুটি মেট্রিক, যা ডেটা সেটের শ্রেণীবদ্ধকরণের জন্য শ্রেণীগুলির মধ্যে পার্থক্য বা বৈচিত্র্য মাপতে ব্যবহৃত হয়।
  • Gini Index অশুদ্ধতা পরিমাপ করে এবং Information Gain সিদ্ধান্ত নেয়ার জন্য তথ্য লাভের পরিমাণ পরিমাপ করে।
Content added By
Promotion

Are you sure to start over?

Loading...